拡散モデル データ生成技術の数理
https://gyazo.com/fa7a31c1675555ad6dac0695147a903b
2022
@hillbig: 拡散本を紹介いただきありがとうございます。論文を読んでもわからない、書いてないところを本書でカバーしていると思います。他にも逆拡散過程で突然x_0で条件付する理由や、付録にあるSDEの逆拡散過程の導出(前提知識がないと読めない Anderson 1982 しかない)も本書でカバーしている部分です @hillbig: 今回の拡散モデル本は実践本ではなく背景の理論や考え方を説明しています。拡散モデルは実装自体は疑似コードで学習も推論(生成)も数行でかけます。なぜこんな単純なことで、これだけのことができるのか。内容は難しいですが私自身も疑問に思ったことに正面から答えようとしている本です。 拡散モデルはデータを生成できるモデル、いわゆる生成モデルの1つで、注目を集めている。 多くの分野で急速に使われ始めている。
生成品質の高さや用途の多様性
これまでの生成モデルにはない高い拡張性
拡散モデルを利用した成果の代表例は、2022年に登場した DALL-E2 やMidjourney、Stable Diffusion であろう。
これらのサービス/ソフトウェアは、ユーザーが指定したテキストに対応する画像を生成する。
その際、生成対象だけでなく、そのスタイルやテーマを自由に指定することができる。...
自然言語がカバーする膨大な対象、スタイル、テーマに対応する高品質な画像を生成できるこれらのサービスの技術の根幹が拡散モデルであり、そのポテンシャルの高さを示している。
拡散モデルは従来の生成モデルと比べて優れた点が多くある。
1つ目は、学習が安定していることである。
1つのモデルで安定した最尤推定を使って学習すればよい ガイダンスとよばれる仕組みを使って、後付け(プラグイン)で条件付けを実現でき、さらにその条件付けの強さを自由に設定でき、品質と多様性のトレードオフをとれる。この特徴はエネルギーベースモデルがもつが、学習や推論が難しかった。拡散モデルは初めて大規模なエネルギーベースモデルを実現したといえる。 世の中の様々な現象やデータには対称性がみられるが、拡散モデルを使ってこうした対称性を満たすような生成モデルを設計することができる。
拡散モデルでは、データにノイズを徐々に加えていき、データを完全なノイズに変換する拡散過程を考える。そして、この拡散過程を逆向きにたどる逆拡散過程によって生成過程を定義する。
すなわち、完全なノイズから徐々にノイズを除去するデノイジングによってデータを生成する。
このように、拡散モデルはデータを破壊することで、その生成方法を学習するというユニークなアイディアに基づいている。
潜在変数モデルに基づく生成モデルは、はじめに潜在変数を生成し、次に潜在変数から観測データを生成する。
拡散モデルでは、最初のノイズや途中のノイズを加えたデータが潜在変数であるとみなせる。
潜在変数モデルは学習の際、観測データからそれを生成している潜在変数を推定する必要があり、これを実現するのが認識モデルである。 一般に生成過程が単純であったとしても、観測データに対する潜在変数の事後確率分布は複雑になりやすく、生成モデルより認識モデルの学習のほうが難しい。
拡散モデルは、学習の必要がない固定の拡散過程を認識モデルとして使っているとみなすことができ、生成モデルのみを学習する。 拡散過程は事後確率分布が潰れてしまう、いわゆるモード崩壊が発生せず、また、入力に対応する任意の深さにある潜在変数の事後確率分布を解析的に求められるという優れた性質をもつ。 拡散モデルの学習は、様々な強さのノイズを加えたデータから、加えられたノイズを推定するデノイジングスコアマッチングとよばれるタスクを解くことで実現される。
生成時には、推定されたノイズを使ってデノイジングしていくことでデータを生成することができる。
本書ではデノイジングスコアマッチングによって得られるデノイジングベクトルとスコアが一致することをみる。
対数尤度(ゆうど)の入力についての勾配、つまり対数尤度が最も急激に増加する方向を表すベクトルをスコアとよぶ。 そして、拡散モデルは様々な強さのノイズを加えた攪乱後分布上のスコアに従ってデータを遷移していくランジュバン・モンテカルロ法を使ってデータを生成しているとみなすことができる。 拡散過程はノイズを加えていくステップを極限まで細かくしていくことにより確率微分方程式(SDE)に変換でき、さらに同じ確率分布を表す常微分方程式(ODE)に変換できることをみていく。このようにして拡散モデルは、SDE、ODE の分野で発展している様々な理論や手法を利用することができる。 例えば、ODE に変換することによって、拡散モデルはデータ分布からノイズ分布への決定的な過程で変換される可逆変換を与えることができる。これによりデータの対数尤度を不偏推定することができたり、データの潜在表現を得ることができる。 拡散モデルは登場してまだ間もない。
非平衡熱力学に基づく手法であり、まったく新しいアプローチであった。
しかし当時は GAN やVAE が大きく成功しはじめた頃であり、また拡散モデルの生成品質も十分ではなく、しばらくは注目されなかった。
2019 年にYang Song 氏が、スコアを使った生成モデルであるスコアベースモデルを提案し、その際に、データに様々な強さのノイズを加えた複数の攪乱後分布上のスコアを組み合わせることにより高品質なデータ生成ができることを示した。 拡散モデルとスコアベースモデルが統一的なデノイジングスコアマッチングの枠組みで扱えること
デノイジングに使うモデル(ニューラルネットワークアーキテクチャ)を工夫することにより他の生成モデルに匹敵する生成品質を達成できること
が示された。
2021年
実際のアプリケーションにおいて重要である、条件付き生成が示された。
こうした発展をみるなかで、拡散モデルの優れた点が注目され、画像や音声、点群、化合物の生成など、多くの問題に対して拡散モデルが急速に使われるようになった。
さらに、生成以外にも補完や編集、超解像、データ圧縮、敵対的摂動に対する頑健性向上などにおいても従来手法を凌駕する性能が達成できることが示され、爆発的に応用が広がっていった。
本書では拡散モデルの基本的な考え方から、その発展的な捉え方と、その応用について解説する。
なお本書では拡散モデルの考え方や数理的な構造に注目し、発展を支えているもう 1つの重要な柱であるディープラーニングやニューラルネットワークについては詳しく取り上げていない。これらについては他のディープラーニングの文献(例えば拙著の文献 [1] [2] など)などを参考にしてほしい。
はじめに:爆発的に応用が広がる拡散モデル
記号一覧
1 生成モデル
1. 1 生成モデルとは何か
1. 2 エネルギーベースモデル・分配関数
1. 3 学習手法
1. 4 高次元で多峰性のあるデータ生成の難しさ
1. 5 スコア:対数尤度の入力についての勾配
1. 5. 4 暗黙的スコアマッチングがスコアを推定できることの証明
1. 5. 6 デノイジングスコアマッチングがスコアを推定できることの証明
1. 5. 7 ノイズが正規分布に従う場合の証明
1. 5. 8 スコアマッチング手法のまとめ
第1章のまとめ
2. 2 スコアベースモデル
2. 2. 1 推定したスコアを使ったランジュバン・モンテカルロ法の問題点
2. 2. 2 スコアベースモデルは複数の攪乱後分布のスコアを組み合わせる
2. 3 デノイジング拡散確率モデル
2. 3. 1 拡散過程と逆拡散過程からなる潜在変数モデル
任意時刻の拡散条件付確率の証明
2. 3. 2 DDPMの学習
式(2. 4)q(x_t−1|x_t, x_0)の証明
2. 3. 3 DDPMからデノイジングスコアマッチングへ
2. 3. 4 DDPMを使ったデータ生成
2. 4. 1 SBMとDDPMの関係
式(2. 9)q(x_t|x_s)の平均と分散の証明
目的関数はシグナルノイズ比によって表される
2. 4. 2 連続時間モデル
2. 4. 3 ノイズスケジュールによらず同じ解が得られる
2. 4. 4 学習可能なノイズスケジュール
第2章のまとめ
3. 4 SDE表現の拡散モデルの学習
3. 5 SDE表現の拡散モデルのサンプリング
3. 6. 1 確率フローODEとSDEの周辺尤度が一致する証明 3. 6. 2 確率フローODE の尤度計算
3. 6. 3 シグナルとノイズで表される確率フローODE
3. 7 拡散モデルの特徴
3. 7. 1 従来の潜在変数モデルとの関係
3. 7. 2 拡散モデルは学習が安定している
3. 7. 3 複雑な生成問題を簡単な部分生成問題に分解する
3. 7. 4 様々な条件付けを組み合わせることができる
3. 7. 5 生成における対称性を自然に組み込むことができる
3. 7. 6 サンプリング時のステップ数が多く生成が遅い
3. 7. 7 拡散モデルでなぜ汎化できるかの仕組みの理解が未解決
第3章のまとめ
4 拡散モデルの発展
4. 4. 1 部分空間拡散モデルの学習
4. 4. 2 部分空間拡散モデルのサンプリング
4. 5 対称性を考慮した拡散モデル
4. 5. 1 幾何と対称性
拡散モデルを使った対称性を備えた生成
SE(3)同変を達成するネットワーク
第4章のまとめ
5 アプリケーション
5. 1 画像生成・超解像・補完・画像変換
5. 2 動画・パノラマ生成
5. 3 意味の抽出と変換
5. 4 音声の合成と強調
5. 5 化合物の生成と配座
5. 6 敵対的摂動に対する頑健性向上
5. 7 データ圧縮
第5章のまとめ
付 録
A. 1 事前分布が正規分布、尤度が線形の正規分布の場合の事後確率分布
A. 3 シグナルとノイズを使った確率フローODEの導出
A. 4 条件付き生成問題
A. 5 デノイジング暗黙的拡散モデル
A. 6 逆拡散過程の確率微分方程式の証明
A. 7 非ガウシアンノイズによる拡散モデル
A. 8 Analog Bits:離散変数の拡散モデル
文 献
索 引